数据仓库与数据挖掘课后答案免费阅读可下载

#数据仓库与数据挖掘课后答案免费阅读可下载| 来源: 网络整理| 查看: 265

《数据仓库与数据挖掘课后答案》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、Group4Chapter1-3CH11.数据库与数据仓库的本质差别是什么？数据库与数据仓库的本质差别是什么？答：数据库用于事务处理，数据仓库用来决策分析。2.从数据库发展到数据仓库的原因是什么？从数据库发展到数据仓库的原因是什么？答：①数据太多，信息贫乏。②异构环境数据的转换和共享。③利用数据进行事务处理转变为利用数据支持决策。3.举例说明数据库与数据仓库的不同举例说明数据库与数据仓库的不同答：数据库（数据库（DB））数据仓库（数据仓库（DW））面向应用面向主题数据是详细的数据是综合的和历史的保持当前数据保存过去和现在的数据数据是可更新的数据不更新对数据操作是重复的对数据的操作是启发式的操作需求是事先可知的操作需求是临时决定的一个操作存取一个记录一个操作存取一个

2、集合数据非冗余数据时常冗余操作比较频繁操作相对不频繁查询基本是原始数据查询基本是经过加工的数据事务处理需要的是当前数据决策分析需要过去和现在的数据很少有复杂的计算有很多复杂的计算支持事务处理支持决策分析4.答：Oltp联机事务处理，就是我们通常所说的关系型数据库，记录了实时的增删改查数据。Olap联机分析处理，是数据仓库的核心，是对oltp的历史数据进行加工，分析处理，用于处理商业智能，决策支持等重要的决策信息。5.答：oltp是用户数据可以立即传送到计算中心进行处理，并在很短时间内给出处理结果。它主要用于包括银行业、航空、邮购订单、超级市场和制造业等的输入数据和取回交易数据。事务处理量大，要求多个并行处理，事务处理内容比较简单切重复率高。大量的数据操作主要涉及的

3、是一些增删改查询等操作，每次操作的数据量不打且多为当前的数据。Oltp处理的数据是高度结构化的，数据访问路径是已知的，至少是固定的。6.答：1.oltp是明细的数据，olap是汇总数据2.oltp记录实时的数据，olap包含2-3年历史数据3.oltp可以进行增删改查操作，olap只支持查询，但周期性刷新。4.oltp一次性处理的数据量少，olap一次处理的数据量大5.oltp对响应时间要求高，olap响应时间合理6.oltp面向应用，事务驱动，olap面向分析，分析驱动7.数据库中数据字典包括哪些内容？数据库中数据字典包括哪些内容？P4-5答：数据字典是指对中举的数据项、数据结构、数据流、数据存储、和处理过程8.元数据的定义是什么？元数据的定义是什么？P5答：元

4、数据为关于数据的数据（dataaboutdata）。元数据在数据仓库中式描述数据仓库中数据及其环境的数据。元数据描述了数据仓库的数据和环境，遍及数据仓库的所有方面，是整个数据仓库的核心。9.元数据与数据字典的关系是什么？元数据与数据字典的关系是什么？P5答：元数据在数据仓库中不仅定义了数据仓库有什么，还指明了数据仓库中信息的内容和位置，刻画了数据的抽取盒转换规则的说明，存储了与数据仓库主题有关的各种商业信息，而且整个数据仓库的运行都是基于元数据的，如数据的修改、跟踪、抽取、装入、综合以及使用等。由于元数据遍及数据仓库的所有方面，因此它已成为整个数据仓库的核心。1010．数据仓库的定义是什么？．数据仓库的定义是什么？W.H.Inmon对数据仓库的定义：数据仓库是面向

5、主题的、集成的、稳定的、不同时间的数据集合，用于支持经营管理中决策制定过程。SAS软件研究所的观点：数据仓库是一种管理技术，旨在通过通畅、合理、全面的信息管理，达到有效的决策支持。1111．数据仓库的特点有哪些？．数据仓库的特点有哪些？从数据仓库的定义可以看出数据仓库具有如下特点：（1）数据仓库是面向主题的主题是数据归类的标准，每一个主题基本对应一个宏观的分析领域。例如，保险公司的数据仓库的主题为客户、政策、保险金、索赔等。（2）数据仓库是集成的数据进入数据仓库之前，必须经过加工与集成。对不同的数据来源进行统一数据结构和编码。统一原始数据中的所有矛盾之处，如字段的同名异义、异名同义、单位不统一、字长不一致等。总之，将原始数据结构做一个从面向应用到面向主题的大转变。

6、（3）数据仓库是稳定的数据仓库中包括了大量的历史数据。数据经集成进入数据仓库后是极少或根本不更新的。（4）数据仓库是随时间变化的数据仓库内的数据时限在5~10年，故数据的键码包含时间项，标明数据的历史时期，这适合决策分析时进行时间趋势分析。（5）数据仓库中的数据量很大通常的数据仓库的数据量为10GB级，相当于一般数据库（约100MB）的100倍，大型数据仓库是1TB（1000GB）级数据量。（6）数据仓库软硬件要求较高需要一个巨大的硬件平台和一个并行的数据库系统。12．说明机器学习如何形成人工智能的学科方向。学习是人类具有的智能行为，主要目的在于获取知识。机器学习是研究使计算机模拟或实现人类的学习行为，即让计算机通过算法自动获取知识。20世纪60年代开始了机器学习

7、的研究。比较典型的成果有：Rosenblate的感知机，它是最早用神经网络进行模式识别的方法；Sammel的西洋跳棋程序，它用线性表达式的启发式方法，通过多次人机对弈，自动修改表达式中的系数，使程序逐渐聪明，该程序竟然取得了胜过作者和州冠军的成绩。20世纪80年代，机器学习取得了较大的成果。Michelski等人的AQ11系统（1980），能从大量病例中归纳出大豆病症的判断规则。AQ11是一个很成功的归纳学习方法；Quiulan的ID3（1983）决策树方法影响很大，实用性很强；Langley等人的BACON系统（1987）能重新发现物理学的大量规律；Rumelhart等人研制的反向传播神经网络BP模型（1985）为神经网络的学习开创了一个新阶段。这些显著成果的出

8、现，使“机器学习”逐渐形成了人工智能的主要学科方向之一。1-13.数据库中每个数据记录的内含代表了该记录的信息。而数据挖掘是从数据库中所有数据记录中归纳总结出知识。知识的数量大大少于数据记录量。这些知识代表了数据库中数据信息的规律，即用少量知识能够覆盖数据库中所有的记录。1-14．OLAP的典型应用例子：OLAP平时需要查询大量的日常商业活动信息，如每周的布匹购买量、每周布匹的内部库存以及布匹的销售量等。OLAP更需要查询商业活动的变化情况，如每周布匹购买量的变化值、衣服生产量的变化值、衣服销售价格的变化等。这些变化值对经理们制定决策更重要。经理们往往从查询出的变化值中，通过OLAP追踪查询找出存在的原因。例如，经理看到利润小于预计值的时候，他可能会深入到各个国家

9、，于是他自然就会查看这些国家中不同产品组的利润情况，总的目标就是寻找一些比较异常的数据来解释某种现象。经过一番观察之后，就会发现非直接成本在这些国家明显偏高。进一步对这些非直接成本进行分析，可以发现近期对于某些产品的赋税明显增加，从而明显影响了最终利润。1-15.OLAP是在带层次的维度和跨维度进行多维数据分析的。数据挖掘则不同，它是以变量和记录为基础进行分析的。数据挖掘任务在于聚类（如神经网络聚类）、分类（如决策树分类）、预测等。这些是带有探索性的建模功能。数据挖掘在于寻找不平常的且有用的商业运作模型。数据挖掘用在产生假设，OLAP则用于查证假设。简单来说，OLAP是由使用者所主导，使用者先有一些假设，然后利用OLAP来查证假设是否成立；而数据挖掘则是用来帮助使

10、用者产生假设。所以在使用OLAP或其它Query的工具时，使用者是自己在做探索（Exploration），但数据挖掘是用工具在帮助做探索。数据挖掘常能挖掘出超越归纳范围的关系，但OLAP仅能利用人工查询及可视化的报表来确认某些关系，是以数据挖掘此种自动找出甚至不会被怀疑过的数据模型与关系的特性，事实上已超越了我们经验、教育、想象力的限制，OLAP可以和数据挖掘互补，但这项特性是数据挖掘无法被OLAP取代的。总之，数据挖掘是智能化的OLAP。16.举例说明统计学的价值。举例说明统计学的价值。答：统计学不仅仅限于学术上的研究，他对于国家发展，经济，政治，自然等等都有它独特的作用。如工业统计学、农业统计学、生物统计学、医药统计学、人口统计学、空间统计学等，都发挥着重要的

11、作用。例如，实验中研究某种实验结果的可靠性，需要用统计学知识来处理实验数据；统计学应用于农业实验的设计和分析中来研究各种品种的中医的增产效果；在医药学中，关于吸烟与肺癌发病率联系的分析、关于某种新药效果的研究，都普遍使用到了统计学的知识。例1：在医药学中，关于吸烟与肺癌发病率联系的分析、关于某种新药效果的研究，都普遍使用统计方法；19世纪中叶基因学说的创立，也是依赖于统计推断技术例2：2005年3月16日上证的平均指数中30支股票的市盈率是21.08。东方电子集团有限公司的市盈率是17.92。这时，市盈率方面的统计信息显示：与上证指数股票的平均收入相比，东方电子集团有限公司的股票价格较低。因此，投资顾问可以得出结论：东方电子集团有限公司的现行价格低估了。这一点以及

12、其他有关东方电子集团有限公司的信息有助于投资顾问做出买入、卖出还是持股的建议。例3：零售付账柜台使用电子扫描仪收集数据，可供各种营销研究应用。市场调查公司或营销专家需要的各种数据，都可以从零售商店购买销售点的扫描记录中获得，他们经过处理后，会把这些数据的统计汇总信息卖给制造商。产品公司经理们可以检查并评论扫描得到的数据以及促销活动的相关数字，从而更好地理解销售与促销活动之间的关系。17．说明统计学应用于数据挖掘中所包含的内容。．说明统计学应用于数据挖掘中所包含的内容。答：（1）常用统计在大量数据中求最大值、最小值、总和、平均值等。（2）相关分析通过求变量间的相关系数来确定变量间的相关程度。（3）回归分析建立回归方程以表示变量间的数量关系，并利用其来进行预测。（4）

13、假设检验在总体存在某种不确定情况是，为推断总体的某些性质，提出关于总体的某些假设，对此假设利用置信区间来检验。（5）聚类分析对样本或变量进行聚类的方法。（6）判别分析建立一个或多个判别函数，并确定一个判别标准。（7）主成分分析把多个变量化为少数的几个综合变量，而这几个综合变量可以反映原来多个变量的大量信息。18．说明统计学与数据挖掘的不同。．说明统计学与数据挖掘的不同。答：①统计学主要是对数量数据或连续值数据进行数值计算的定量分析，得到数量信息；数据挖掘主要对离散数据进行定性分析，得到规则知识。②统计学和数据挖掘中聚类分析和判别分析采用的标准不一样。统计学的聚类采用的“距离”是欧式距离；而数据挖掘的聚类采用的“距离”是汉明距离。19区别：数据仓库在数据库的基础上发

14、展起来的。它将大量的数据库数据按决策需求进行重新组织，以数据仓库的形式进行存储，为用户提供辅助决策的随机查询、综合信息以及随时间变化的趋势分析信息等。数据仓库是一种存储技术，其数据存储量是数据库100倍，包含大量的历史数据、当前的详细数据以及综合数据。它能适用不同用户对不同决策需要提供所需的数据和信息。数据挖掘从人工智能机器学习中发展起来。研究各种方法和技术，从大量数据中挖掘出有用的信息和知识。数据挖掘采用统计分析法。神经网络方法和机器学习中研究的方法。联系：都是决策支持新技术，可以结合起来以帮助决策用户挖掘数据仓库数据中隐含的规律性。数据挖掘用于数据仓库实现决策支持，具体表现为：（1）预测客户购买倾向；（2）进行客户利润度贡献分析；（3）分析欺诈行为；（4）进行

15、销售渠道优化分析等。20数据库是一个长期存储在计算机内的、有组织的、有共享的、统一管理的数据集合。数据仓库，是决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据挖掘的兴起是针对数据库的。数据仓库与数据库在数据存储等方面有诸多不同。数据仓库数据存储按决策分析需求，这种需求是以决策主题为对象的，从而给予数据仓库的数据挖掘更加面向主体化，更适合应用与决策分析。数据仓库数据存储量比数据库大很多，按决策主题组织，保留大量历史数据，更适合于预测分析，并且对近期基本数据进行了轻度、高度综合，使得分析效率更高，更便于提取有用数据。数据库使用关系型二维存储格式，数据仓库采用多为超立方体结构存储，相较于二维存储可以挖掘多维数据知识。21

16、数据挖掘从数据仓库中挖掘的信息：（1）哪些商品仪器销售好？（2）偏爱某类商品的客户特征是什么？（3）还有那些客户具有向上述特征？（4）那些商业事务处理可能有欺诈性？（5）高价值客户的共同点是什么？22.数据仓库对数据挖掘提出了哪些新要求？数据仓库对数据挖掘提出了哪些新要求？答：1）数据挖掘需要可扩展性：数据挖掘对数据仓库的应用一般使用的数据是详细数据，不用综合数据，因为综合数据“平滑”了数据间的差别，从而无法发现单个数据项目之间的微妙相关性。数据仓库中的数据随着时间的推移逐渐增长。这样，数据挖掘方法就应该具有可扩展性，能够处理递增的数据量。2）数据挖掘方法需要挖掘多维知识：数据仓库中的数据模型是多维数据知识，它不同于数据库的二维数据组织。数据挖掘应用到数据仓库时需

17、要能挖掘多维数据知识。23.数据仓库与联机分析处理、数据挖掘在决策支持方面有什么不同？数据仓库与联机分析处理、数据挖掘在决策支持方面有什么不同？答：联机分析处理专门用于支持复杂的分析操作，侧重对分析人员和高层管理人员的决策支持，可以应分析人员的要求快速、灵活地进行大数据量的复杂处理，并且以一种直观易懂的形式将查询结果提供给决策指定人。联机分析处理可以使决策者从多方面和多角度，以多维的形式来观察企业的状态和了解企业的变化。联机分析处理的功能和算法包括聚合、分配、比率、乘积等描述性的建模功能。数据挖掘在于寻找不平常且有用的商业运作模型。考查数据的不同类型或者找出变量之间的关系。数据挖掘需要海量数据，主要是详细数据和历史数据。数据挖掘主要进行聚类、分类、预测等探索性的建

18、模功能。而数据仓库是一种存储技术。数据仓库中存储着大量辅助决策的数据，它为不同的用户随时提供各种辅助决策的随机查询、综合信息或趋势分析信息。用户利用这些信息和知识来指导和帮助决策。联机分析处理以数据仓库为基础为决策人员提供快速灵活的数据分析；数据挖掘则是利用各种方法和技术从数据仓库中挖掘出信息和知识，反映数据仓库中数据的规律性。总而言之，联机分析处理和数据挖掘都是以数据仓库为基础辅助决策，只是方式不同。24.基于数据仓库的决策支持系统的组成是什么？基于数据仓库的决策支持系统的组成是什么？数据仓库（DW）、联机分析处理（OLAP）、数据挖掘（DM）相结合的决策支持系统，是以数据仓库为基础的决策支持系统。25.画出基于数据仓库的决策支持系统的结构图。画出基于数据仓库的

19、决策支持系统的结构图。26.26.说明基于数据仓库的决策支持系统与传统决策支持系统有什么区别。说明基于数据仓库的决策支持系统与传统决策支持系统有什么区别。解：基于数据仓库的决策支持系统是数据仓库和联机分析处理及数据挖掘相结合的决策支持系统，以数据仓库为基础。综合信息与预测信息是可以通过数据仓库获得的辅助决策信息，而联机分析处理能对数据仓库中的数据进行多维数据分析，即多维数据的切片、切块、旋转、钻取等，只有通过分析更详细的数据，才能得到更深层中的信息和知识。数据挖掘则能获取关联知识，时序知识，类聚知识，分类知识等。传统决策支持系统是基于模型和知识的智能决策支持系统。27.27.商业智能概念是什么？商业智能概念是什么？解：商业智能是一种技术，它以数据仓库为基础，通过联

20、机分析处理和数据挖掘技术帮助企业领导者针对市场变化的环境，做出快速、准确的决策。商业智能所体现的智能行为在于，能够解决市场环境中随机变化的决策问题，其所提供的智能手段表现为联机分析处理的任意切片、切块和钻取，以及利用数据挖掘技术所获得的知识。28、如何理解商业智能与基于数据仓库的决策支持系统的区别和联系？、如何理解商业智能与基于数据仓库的决策支持系统的区别和联系？商业智能以数据仓库为基础，通过联机分析处理和数据挖掘技术帮助企业领导者针对市场变化的环境，做出快速、准确的决策。商业智能与基于数据仓库的决策支持系统从组成和目标看来是一致的，但是商业智能是一种技术，基于数据仓库的决策支持系统是解决实际决策问题的一个系统，即：基于数据仓库的决策支持系统是利用商业智能技术来解

21、决实际决策问题的系统。29、商业智能在哪些方面改进企业决策过程？、商业智能在哪些方面改进企业决策过程？（1）信息共享。有了商业智能系统就可以实现信息共享，用户可迅速找到所需要的数据，通过对数据进行钻取分析以达到目标。（2）实时反馈分析。商业智能的运用能够使员工随时看到工作的进展程度，并且了解一个特定的行为对现实目标的效用。如果员工能看到自己的行为如何提升或影响了业绩，那么也就不需要过于复杂的激励体系了。(3)鼓励用户找到问题的根本原因。根据初步得到的答案而采取的行动可能未必成功，因为初步的探索往往没有发现根本问题的所在，要找到根本原因就需要对与成功或失败的相关诸多因素进行深度分析。（4）使用主动智能。在数据仓库中设定预警机制，一旦出现超过预警条件的数据，就自动通过

22、各种设备通知用户。（5）实时智能。CH21、画出数据仓库结构图，说明各部分内容。、画出数据仓库结构图，说明各部分内容。数据仓库结构包括当前基本数据、历史基本数据、轻度综合数据、高度综合数据、元数据。当前基本数据是最近时期的业务数据，是数据仓库用户最感兴趣的部分，数据量大。当前基本数据随时间的推移，由数据仓库的时间控制机制转为历史基本数据，一般被转存在介质中，如磁带中。轻度综合数据是从当前基本数据中提取出来的，设计这层数据结构时会遇到“综合处理数据的时间段选取，综合数据包含哪些数据属性和内容”等问题。高度综合数据是最高一层，这层数据十分精炼，是一种准决策数据。整个数据仓库的组织结构是由元数据来组织的，它不包含任何业务数据库中的实际数据信息。元数据在数据仓库中扮演着重

23、要的角色，它包括以下信息：（1）数据仓库的目录信息（2）数据从数据库环境想数据仓库环境转换时对应的说明（3）知道从当前基本数据到综合数据的综合方式的说明（4）指导用户使用数据仓库。2、说明数据仓库结构图中包含轻度综合层和高度综合数据层的作用。这些数据为什么不是、说明数据仓库结构图中包含轻度综合层和高度综合数据层的作用。这些数据为什么不是临时计算出来的？临时计算出来的？在数据仓库中并不采取临时计算的方式得到综合数据，而是在用户提出需要综合数据之前，就预先将可能需要的综合数据利用数据立方体计算好，存入综合数据层中，这种综合数据层在用户查询时，能迅速提供给用户。在数据仓库中存储多种粒度数据时为了提高决策分析效果。为了适应决策需求。3、说明数据集市与数据仓库的区别和联系。

24、、说明数据集市与数据仓库的区别和联系。联系：数据集市是一种更小、更集中的数据仓库，为公司提供了一条分析商业数据的廉价途径。数据集市是指具有特定应用的数据仓库，主要针对某个具有战略意义的应用或者具体部门级的应用，支持用户利用已有的数据获得重要的竞争优势或者找到进入新市场的具体解决方案。区别：（1）数据仓库是基于整个企业的数据模型建立的，它面向企业范围内的主题。而数据集市是按照某一特定部门的数据模型建立的，由于每个部门有自己特定的需求，因此对数据集市的期望也不一样。（2）部门的主题与企业的主题之间可能出在关联，也可能不存在关联。数据仓库中存储整个企业内非常详细的数据，而数据集市中数据的详细程度要低一些，包含概要和累加数据要多一些。（3）数据集市的数据组织一般采用星型模

25、型。大型数据仓库的数据组织，如NCR公司采用第三范式。4.4.说明数据集市的特点。说明数据集市的特点。解：（1）规模是小的；（2）特定的应用；（3）面向部门；（4）由业务部门定义，设计和开发；（5）由业务部门管理和维护；（6）快速实现；（7）价格较低廉；（8）投资快速回收；（9）工具集的紧密集成；（10）更详细的、预先存在的数据仓库的摘要子集；（11）可升级到完整的数据仓库。5.5.画出数据集市的两种结构图，说明它们的不同点。画出数据集市的两种结构图，说明它们的不同点。解：（1）从属数据集市（图1）它的数据直接来自于中央数据仓库。这种结构仍能保持和数据仓库的一致性。一般为那些访问数据仓库十分频繁的关键业务部门建立从属的数据集市，这样可以很好地提高查询的反应速度。（

26、2）独立数据集市（图2）它的数据直接来源于各生产系统。许多企业在计划实施数据仓库时，往往出于投资方面的考虑，最后建成独立数据集市，用来解决个别部门比较迫切的决策问题。从这个意义上讲，它与企业数据仓库除了在数据量大小和服务对象上有所区别外，逻辑结构并无多大区别。图1图26.6.画出数据仓库系统结构图，说明把仓库管理和分析工具作为数据仓库系统的两个独立组画出数据仓库系统结构图，说明把仓库管理和分析工具作为数据仓库系统的两个独立组成部分的原因。成部分的原因。解：仓库管理包括数据建模；数据抽取、转换、装载（ETL）；元数据；系统管理等四部分。而由于数据仓库的数据量大，因此必须有一套功能很强的分析工具集来实现从数据仓库中提供辅助决策的信息，完成决策支持系统的各种要求。所以仓

27、库管理与分析工具要作为两个独立的组成部分。7.说明仓库管理包含的具体内容。说明仓库管理包含的具体内容。仓库管理包括数据建模；数据抽取、转换、装在（ETL）；元数据；系统管理等四部分。8.说明分析工具包含的具体内容。说明分析工具包含的具体内容。分析工具包含查询工具、多维数据分析工具（OLAP工具）、数据挖掘工具（DM工具）、客户/服务器（C/S）。9.画出数据仓库的运行结构图，说明三层画出数据仓库的运行结构图，说明三层C/S结构与两层结构与两层C/S结构的不同点。结构的不同点。数据仓库的C/S结构：数据仓库采用服务器结构，客户端所做的工作有客户交互、格式化查询、结果显示、报表生成等。数据仓库的三层C/S结构：在客户端和数据仓库服务器之间多增加一个多维数据分析服务器。

28、OLAP服务器从数据仓库服务器中抽取数据，在OLAP服务器中转换成客户端用户要求的多维视图，进行多维数据分析。工作效率更高。10.数据仓库的逻辑数据模型有哪些？数据仓库的逻辑数据模型有哪些？答：数据仓库的逻辑数据模型是多维结构的数据视图，也称多维数据模型，主要有星型模型、雪花模型、星网模型、第三范式等。11.数据模型与数学模型有什么区别？数据模型与数学模型有什么区别？答：数据模型是现实世界数据特征的抽象，一般包括数据结构和数据操作。数学模型是根据对研究对象所观察到的现象及实践经验，归结成的一套反映其内部因素数量关系的数学公式、逻辑准则和具体算法。用以描述和研究客观现象的运动规律。数据模型侧重于描述数据的类型、内容、操作等；而数学模型则是研究数据内在的数学规律与数学

29、表达。12.说明星型模型有什么好处？说明星型模型有什么好处？答：星型模型存取数据速度快，它对各个维都做了大量的预处理，提高了多维数据的查询速度。星型模型的设计模式适用于决策分析应用，它比较直观，便于用户理解。13时间维是一个有特殊意义的维，可以帮助决策者分析数据随时间的变化趋势，可以将历史数据联系起来，对决策中的趋势分析很重要。14雪花模型是对星型模型的扩展，对星型模型的维表进一步层次化。最大限度减少数据存储量，把较小维表联合在一起来改善查询性能。星网模型是将多个相关的星型模型通过相同的维表连接起来形成网状结构。大多数星网模型中，各个事实表共享的维表是时间维。15.第三范式数据模型与星型模型有什么不同？第三范式数据模型与星型模型有什么不同？答：第三范式数据模型把事

30、实表和维表的属性作为一个实体都集中在同一数据库表中，或分成多个实体用多个表来表示，每个表按第三范式组织数据；而每个星型模型都在事实表中保存了一些指标，为特定的目的服务。多个相关的星型模型通过相同的维表连接起来形成网状结构。16.说明第三范式与星型模型的优缺点。说明第三范式与星型模型的优缺点。答：星型模型的设计模式使用于决策分析。星星模型与第三范式存储的数据信息是一样的，但它更方便用户理解数据，更适合对数据的多维查询操作；星型模型在进行多维数据分析时，在不超过预定义的维度范围内，速度是很快的。但是，如果超过了预定义的维度，增加维度将是很困难的事情；第三范式对于海量数据且需要处理大量的动态业务分析时比较有优势。2-17．ETL过程的主要步骤概括为：（1）决定数据仓库中

31、需要的所有的目标数据；（2）决定所有的数据源，包括内部和外部的数据源；（3）准备从源数据到目的数据的数据映射关系；（4）建立全面的数据抽取规则；（5）决定数据转换和清洗规则；（6）为综合表制定计划；（7）组织数据缓冲区域和检测工具；（8）为所有的数据装载编写规程；（9）维度表的抽取、转换和装载；（10）事实表的抽取、转换和装载；2-18.数据抽取工作包括以下内容：1.确定数据源确定数据源该项工作主要包括：（1）列出对事实表的每一个数据项和事实；（2）列出每一个维度属性；（3）对于每个目标数据项，找出源数据项；（4）数据仓库中一个数据元素有多少个来源，选择最好的来源；（5）确认一个目标字段的多个源字段，建立合并规则；（6）确认多个目标字段的个一源字段，建立分离规则；

32、（7）确定默认值；（8）检查缺失值的源数据；2.数据抽取技术数据抽取技术（1）进行数据抽取时要考虑的两种情况：当前值周期性的状态；○1○2（2）两类数据的抽取静态数据的抽取修正数据的抽取○1○21919．说明数据转换的基本功能。．说明数据转换的基本功能。（1）选择。从原系统中选择整个记录或者部分记录。（2）分离/合并。对原系统中的记录进行分离操作或者对很多原系统中选择的部分数据进行合并操作。（3）转化。对字段的转化包括对原系统进行标准化和使字段对用户来说是可用和可理解的。（4）汇总。数据仓库中需要保存很多汇总数据。这需要对最低粒度数据进行汇总。（5）清晰化。对单个字段数据进行重新分配和简化的过程，是数据仓库更便利使用。2020．数据转换有哪些类型？．数据转换有哪些

33、类型？（1）格式修正。包括数据类型和单个字段长度的变化。（2）字段的编码。对所有晦涩的编码进行解码。将它们变成用户可以理解的值。（3）计算值和导出值。在数据仓库中，有时需要与销售和成本一起计算出利润值。导出字段包括每天的收支差额和相关比率。（4）单个字段的分离。在旧系统中将客户名称、地址存放在大型文本字段中；姓和名存放在一个字段中；城市、地区和邮政编码存放在一个字段中。在数据仓库中却需要将姓名和地址放在不同的字段中，便利不同要求的分析工作。（5）信息的合并。例如：一个产品的信息可能从不同的数据源中获得；产品编码和产品名从一个数据源得到，相关包装类型从另一个数据源中得到，成本数据从第三个数据源中得到。信息合并是产品编码、产品名、包装类型和成本的有机组合，是一个新的实

34、体。（6）特征集合转化。例如：在原系统中数据采用EBCDIC码，而数据仓库数据采用ASCII码，这就需要进行代码集合的转化。（7）度量单位的转化。使数据具有相同的标准度量单位。不少国家有自己的度量单位，需要在数据仓库中采用标准度量单位。（8）日期/时间转化。日期和时间的表示应该转化成国际标准格式。（9）汇总。这种类型的转换是创建数据仓库的汇总数据。汇总数据适合于客观战略性的查询。（10）关键字重新构造。在原系统中关键字可能包含很多项的内容，如产品编码包括仓库代码、销售区域、产品编码等多项内容。在数据仓库中，关键字要发生变化，转换成适合于事实表和维表的普通键值。21.数据装载方式与类型有哪些？数据装载方式与类型有哪些？P32答：数据装载方式：（1）基本装载。（2）追

35、加。（3）破坏性合并。（4）建设性合并（1）基本装载：按照装载的目标表，将装换过的数据输入到目标表中去。若目标表中已有数据，装载时会先清除这些数据，再装入新数据。目标表可以是事实表或维表。（2）追加：如果目标表中已经存在数据，追加过程在保存已有数据的基础上增加输入数据，当一个输入数据记录与已经存在的记录重复时，输入记录可能可以作为副本增加进去，或者丢弃新输入数据。（3）破坏性合并：当输入数据记录的主键与一条已经存在的记录的键互相匹配时，用新输入数据更新目标记录数据。如果输入记录是一条新的记录，没有任何与之匹配的现存记录，那么就将这条输入记录添加到目标表中。（4）建设性合并当输入记录主键与已有记录的键相匹配时，保留已有的记录，增加输入的记录，并标记为旧记录的替代。数

36、据装载类型：（1）最初装载。（2）增量装载。（3）完全刷新。（1）最初装载：这是第一次对整个数据仓库进行装载。在装载工作完成以后，建立索引。（2）增量装载：由于源系统的变化，数据仓库需要装载变化的数据，这就是增量装载。在建设性合并的装载方式中，对增加的输入记录中标记了就记录的代替。这可以作为增量装载的方式。当已装入的记录数据必须被改正后的数据记录取代后，要采用破坏性合并的装载方式作为增量装载的方式。（3）完全刷新：这种类型的数据装载用于周期性重写数据仓库。有时，也可能对一些特定的表进行刷新。完成刷新与初始装载比较相似。不同点在于在完全刷新之前，目标表中已经存在数据。22.说明数据库中的元数据以及数据仓库中元数据的不同。说明数据库中的元数据以及数据仓库中元数据的不同

37、。答：按照传统的定义，元数据是关于数据的数据。在数据仓库系统中个，元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便的找到他们所关心的数据。元数据是藐视数据仓库内数据的结构和建立方法的数据。23.答：关于数据源的元数据，它是现有的业务系统的数据源的描述信息。这类元数据是对不同平台上的数据源的物理结构和含义的描述。具体为：（1）数据源中所有物理数据结构，包括所有的数据项及数据类型。（2）所有数据项的业务定义。（3）每个数据项更新的频率，以及由谁或那个过程更新的说明。（4）每个数据项的有效值。（5）其他系统中具有相同业务含义的数据项的清单。24.答：关于数据模型的元数据描述了数据仓库中有什么数据以及数据之间的关系，它们是管理和使用数据仓库的基础。这种元数据可以支

38、持用户从数据仓库中获取数据。用户可以提出需要哪些表，系统从中选一个表，并得到表之间的关系。通过关系新表，重复该过程。用户就可以得到希望的数据。25.什么是关于数据仓库映射的元数据？什么是关于数据仓库映射的元数据？答：这类元数据是数据源与数据仓库数据之间的映射。反映数据仓库中的数据项是从哪个特定的数据源抽取的，经过了哪些转换、变换和装载过程。26.什么是关于数据仓库使用的元数据？什么是关于数据仓库使用的元数据？答：这类元数据是对数据仓库中信息使用情况的描述。27.数据仓库中的元数据是如何发挥作用的？数据仓库中的元数据是如何发挥作用的？P37答：1.元数据告诉数据仓库中有什么数据，它们从哪里来，即如何按主题查看数据仓库的内容。2.元数据提供已有的可重复利用的查询语言信

39、息，如果某个查询能够满足他们的需求，或者与他们的愿望相似，他们就可以再次使用这些查询而不必从头开始编程。数据仓库使用的元数据能帮助用户到数据仓库查询所需要的信息，用于解决企业的问题。CH31.联机分析处理联机分析处理(OLAP)的简单定义是什么？它体现的特征是什么？的简单定义是什么？它体现的特征是什么？答：联机分析处理的简单定义是共享多维信息的快速分析。它体现了四个特征：1）用户对OLAP的快速反应能力有很高的要求。2）可分析性：OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。3）多维性：系统必须提供对数据分析的多维视图和分析，包括对层次维和多重层次维的完全支持。4）信息性：OLAP系统应能及时获得信息，并且管理大容量的信息。2.OLAP准则中主要准则有哪

40、些？准则中主要准则有哪些？答：1）多维概念视图；2）透明性3）可访问性4）一致稳定的报表性能5）客户/服务器体系结构6）维的等同性7）动态的稀疏矩阵处理8）多用户支持能力9）非限定的跨维操作3.什么是维？关系数据库是二维数据吗？如何理解多维数据？什么是维？关系数据库是二维数据吗？如何理解多维数据？维是人们观察数据的特定角度。关系数据库是二维数据。多维数据就是一个多个维数组，每个维都选中一个成员时，唯一确定的某一个变量值。比如日用品销售数据有时间、地区、销售渠道这几个维度，加上销售额这个变量。如果时间、地区和销售渠道都取确定值，销售额也能被唯一确定，销售额就是一个多维数据。4.MDDB与与RDBMS有什么不同？说明各自的特点。有什么不同？说明各自的特点。MDDB是以

41、多维方式组织数据，即以维作为坐标系，采用类似于数组的形式存储数据。RDBMS以“属性——元祖（记录）”形式组织数据。MDDB比RDBMS表达更清晰且占用的存储少。5.5.比较比较ROLAPROLAP与与MOLAPMOLAP在数据存储、技术及特点上的不同。在数据存储、技术及特点上的不同。解：（1）数据存储：MOLAP：详细数据用关系表存储在数据仓库中；各种汇总数据保存在多维数据库中；从数据仓库中询问详细数据，从多维数据库中询问汇总数据。ROLAP：全部数据以关系表存储在数据仓库中；可获得细节的和综合汇总的数据；有非常大的数据容量；从数据仓库中询问所有的数据。（2）技术：MOLAP：由MOLAP引擎创建；预先建立数据立方体；多维视图存储在陈列中，而不是表格中；可以高速

42、检索矩阵数据；利用稀疏矩阵技术来管理汇总的稀疏数据。ROLAP：使用复杂SQL从数据仓库中获取数据；ROLAP引擎在分析中创建数据立方体；表示层能够表示多维的视图。（3）特点：MOLAP:询问响应速度快；能轻松适应多维分析；有广泛的下钻和多层次/多视角的查询能力。ROLAP:在复杂分析功能上有局限性，需要采用优化的OLAP；向下钻取较容易，但是跨维向下钻取比较困难。6.HOLAP6.HOLAP数据模型的特点是什么？数据模型的特点是什么？解：HOLAP即混合OLAP介于MOLAP和ROLAP之间。在HOLAP中，对于最常用的维度和维层次，使用多维数据库来存储，对于用户不常用的维度和数据，采用ROLAP星型结构来存储。当用户询问不常用数据时，HOLAP将会把简化的多维

43、数据和星型结构进行拼合，从而得到完整的多维数据。在HOLAP的多维数据库中的数据维度少于MOLAP中的维度库，数据存储容量也少于MOLAP方式。但是，HOLAP在数据存储速度上又低于MOLAP。7、举例说明多维数据显示的两种不同方法。、举例说明多维数据显示的两种不同方法。多维数据一般采用多维数据库（MDDB）和关系数据库（RDBMS）两种方式存储。用关系数据库可以显示更多维的数据，即用星型模型的事实表形式显示。但是，用事实表显示多维数据时，重要数据很多，也显得繁琐。用多维数据显示时，虽然不能同时显示三维以上数据，由于显示的数据很精炼，因此仍然用多维数据库的方式

【本文地址】

公司简介

联系我们

数据仓库与数据挖掘课后答案 免费阅读可下载

数据仓库与数据挖掘课后答案免费阅读可下载